智能论文笔记

On the generalization of learning algorithms that do not converge

Nisha Chandramoorthy , Andreas Loukas , Khashayar Gatmiry , Stefanie Jegelka

分类：机器学习 | (统计)机器学习

2022-08-16

深度学习的概括分析通常假定训练会收敛到固定点。但是，最近的结果表明，实际上，用随机梯度下降优化的深神经网络的权重通常无限期振荡。为了减少理论和实践之间的这种差异，本文着重于神经网络的概括，其训练动力不一定会融合到固定点。我们的主要贡献是提出一个统计算法稳定性（SAS）的概念，该算法将经典算法稳定性扩展到非convergergent算法并研究其与泛化的联系。与传统的优化和学习理论观点相比，这种崇高的理论方法可导致新的见解。我们证明，学习算法的时间复杂行为的稳定性与其泛化有关，并在经验上证明了损失动力学如何为概括性能提供线索。我们的发现提供了证据表明，即使训练无限期继续并且权重也不会融合，即使训练持续进行训练，训练更好地概括”的网络也是如此。

translated by 谷歌翻译

Draw Your Art Dream: Diverse Digital Art Synthesis with Multimodal Guided Diffusion

Huang Nisha , Tang Fan , Dong Weiming , Xu Changsheng

分类：计算机视觉

2022-09-27

数字艺术合成在多媒体社区中受到越来越多的关注，因为有效地与公众参与了艺术。当前的数字艺术合成方法通常使用单模式输入作为指导，从而限制了模型的表现力和生成结果的多样性。为了解决这个问题，我们提出了多模式引导的艺术品扩散（MGAD）模型，该模型是一种基于扩散的数字艺术品生成方法，它利用多模式提示作为控制无分类器扩散模型的指导。此外，对比度语言图像预处理（剪辑）模型用于统一文本和图像模式。关于生成的数字艺术绘画质量和数量的广泛实验结果证实了扩散模型和多模式指导的组合有效性。代码可从https://github.com/haha-lisa/mgad-multimodal-guided-artwork-diffusion获得。

translated by 谷歌翻译

Benchmarking Visual-Inertial Deep Multimodal Fusion for Relative Pose Regression and Odometry-aided Absolute Pose Regression

Felix Ott , Nisha Lakshmana Raichur , David Rügamer , Tobias Feigl , Heiko Neumann , Bernd Bischl , Christopher Mutschler

分类：计算机视觉

2022-08-01

视觉惯性定位是计算机视觉和机器人技术应用中的关键问题，例如虚拟现实，自动驾驶汽车和航空车。目的是在已知环境或动力学时估计物体的准确姿势。最近的方法使用卷积和时空网络直接回归姿势。绝对姿势回归（APR）技术可预测已知场景中图像输入的绝对摄像头姿势。进程方法执行相对姿势回归（RPR），该方法可预测已知对象动态（视觉或惯性输入）的相对姿势。可以通过检索跨模式设置的两个数据源的信息来改进本地化任务，这是一个挑战性的问题，这是由于矛盾的任务。在这项工作中，我们进行了基准，以评估基于PGO和注意力网络的深层多模式融合。辅助和贝叶斯学习已整合到APR任务中。我们展示了RPR AD的APR任务的准确性改进以及用于航空车辆和手持设备的RPR-RPR任务。我们在Euroc Mav和Penncosyvio数据集上进行实验，并记录一个新颖的行业数据集。

translated by 谷歌翻译

IR Motion Deblurring

Nisha Varghese , Mahesh Mohan M. R. , A. N. Rajagopalan

分类：计算机视觉

2021-11-23

相机万向节系统在各种空气或水系统中非常重要，用于导航，目标跟踪，安全性和监视等应用。由于在短时间内可以重新讨论给定的视野（FOV），因此对于实时应用，对于实时应用，优选用于实时应用的更高的转向速率（旋转角度）。然而，由于Gimbal和场景之间的相对运动在曝光时间期间，捕获的视频帧可能遭受运动模糊。由于大多数后捕获后应用需要模糊图像，因此实时运动脱棕色是重要的需求。尽管存在盲的去欺诈方法，其旨在从模糊输入中检索潜像，因此它们受到非常高维优化的约束，从而产生大的执行时间。另一方面，对于运动去掩盖的深度学习方法，虽然快速，但不令人满意地概括到不同的域（例如，空气，水等）。在这项工作中，我们解决了基于Gimbal的系统捕获的红外线（IR）图像中实时运动去纹的问题。我们揭示了模糊 - 内核的先验知识如何结合非盲去欺诈方法来实现实时性能。重要的是，我们的数学模型可以利用，以创建具有现实万向动动运动模糊的大型数据集。这种数据集是一种罕见的数据集可以是当代深度学习方法的有价值资产。我们表明，与去纹理中的最先进技术相比，我们的方法更适合实用的基于Gimbal的成像系统。

translated by 谷歌翻译

Random and Adversarial Bit Error Robustness: Energy-Efficient and Secure DNN Accelerators

David Stutz , Nandhini Chandramoorthy , Matthias Hein , Bernt Schiele

分类：机器学习 | 计算机视觉

2021-04-16

近年来，由于与主流硬件相比，深层神经网络（DNN）加速器近年来受到了极大的关注。 DNN加速器的低压操作允许进一步降低能耗，但是，在存储量化权重的存储器中导致位级故障。此外，DNN加速器很容易受到对电压控制器或单个位的对抗性攻击。在本文中，我们表明，强大的固定点量化，重量减少以及随机位错误训练（randbet）或对抗位错误训练（ADVBET）的结合可显着提高稳健性，以显着针对量化的DNN重量中的随机或对抗位错误。。这不仅可以为低压操作以及低精度量化提供高能源节省，还可以提高DNN加速器的安全性。与相关工作相反，我们的方法跨越了操作电压和加速器，并且不需要硬件更改。此外，我们提出了一种新颖的对抗性位错误攻击，并能够针对目标和不靶向的比特攻击获得鲁棒性。对于8/4位量化，我们可以在测试准确性上损失超过0.8％/2％的测试准确性，而可以将CIFAR10上的能源消耗降低20％/30％。最多允许320个对抗位错误，我们将测试错误从90％（机会水平）降低到26.22％。

translated by 谷歌翻译